DEEL 1: Verdelingen en steekproeven
Dus sampling is onze redding.
Populatieparameters (in cm):
\(\mu = 175\) en \(\sigma = 7\)
Van de hele populatie van 10 miljoen volwassenen:
| id | height |
|---|---|
| 1 | 174 |
| 2 | 198 |
| … | … |
| 9999999 | 156 |
| 10000000 | 180 |
Wij zijn nu de onderzoekers:
We weten dit allemaal niet van de populatie!!!
We willen weten hoe lang Nederlandse volwassenen zijn.
Laten we beginnen…
\(n=3\)
| id | height |
|---|---|
| 693610 | 158.61 |
| 8177752 | 181.76 |
| 9426218 | 172.30 |
\(M = \frac{\sum{{X}}}{n} = \frac{158.61+181.76+172.30}{3} = \frac{512.67}{3} = 170.89\)
\(SD = \sqrt{\frac{SS}{n-1}}\)
\(SS =\sum{{(X-M)^2}} = (158.61-170.89)^2+... = 270.94\)
\(SD = \sqrt{\frac{270.94}{3-1}} =\sqrt{135.47} =11.64\)
Wanneer we statistieken uit onze data halen, hebben we het over:
De steekproeffout (Engelse: sampling error) is het verschil tussen die twee.
Hier:
We herhalen het: nu nemen we twee keer een steekproef van \(n=3\).
| sample | n | mean_height |
|---|---|---|
| 1 | 3 | 170.89 |
| 2 | 3 | 175.21 |
Herhaaldelijk steekproeven trekken: 10 keer een steekproef van \(n=3\)
| sample | n | mean_height |
|---|---|---|
| 1 | 3 | 170.89 |
| 2 | 3 | 175.21 |
| 3 | 3 | 175.40 |
| 4 | 3 | 172.42 |
| 5 | 3 | 177.65 |
| 6 | 3 | 180.61 |
| 7 | 3 | 169.51 |
| 8 | 3 | 179.00 |
| 9 | 3 | 179.69 |
| 10 | 3 | 174.82 |
Waarom vergroten we niet ook de steekproefgrootte \(n\)?
| sample | n | mean_height |
|---|---|---|
| 1 | 20 | 175.17 |
| 2 | 20 | 174.15 |
| 3 | 20 | 178.14 |
| 4 | 20 | 173.99 |
| 5 | 20 | 173.45 |
| 6 | 20 | 177.54 |
| 7 | 20 | 175.86 |
| 8 | 20 | 172.75 |
| 9 | 20 | 176.58 |
| 10 | 20 | 175.04 |
We hebben nu 10 keer “gesampled” met \(n=20\).
Het gemiddelde van de 10 gemiddelden is:
## [1] 175.27
Denk terug aan wat we gedaan hebben?
We hebben het aantal steekproeven en de steekproefgrootte vergroot om de steekproeffout te verkleinen
Denk eraan: we willen het gemiddelde \(M\) schatten (we hebben nooit toegang tot de populatie).
Moeten we dus vele, vele steekproeven nemen met grote steekproefgroottes?
Gelukkig is er een wiskundig theorema dat ons kan redden!
De centrale limiet stelling (Engels: Central limit Theorem, CLT) stelt dat:
En: het zal de normale verdeling benaderen met toenemende \(n\)
Dit is als een levensredder.
Vorm:
De verdeling van steekproefgemiddelden benadert de normale verdeling als:
Centrale tendens (het gemiddelde):
Maar we hebben niet altijd alle mogelijke steekproeven (eigenlijk: nooit!).
Dus weten we dat \(M \approx \mu\) is. We hebben dus een soort “variabiliteitsindicator” nodig voor het gemiddelde (van de steekproefgemiddelden)…
Variabiliteit van het gemiddelde: de standaardfout van het gemiddelde (standard error of the mean)
\(SE = \sigma_M = \frac{\sigma}{\sqrt{n}}\)
Kan ook worden geschreven als: \(SE = \sqrt{\frac{\sigma^2}{n}}\)
We nemen een steekproef van \(n=1\) uit onze data en krijgen:
## [1] 170.77
De standaardfout is \(SE = \frac{\sigma}{\sqrt{n}} = \frac{7}{\sqrt{1}} = 7\)
Met \(n=1\), \(SE = \sigma\).
Denk terug: onze populatie had \(\mu=175\) en \(\sigma=7\).
| n | SE |
|---|---|
| 1 | 7.00 |
| 2 | 4.95 |
| 3 | 4.04 |
| 4 | 3.50 |
| 5 | 3.13 |
| 10 | 2.21 |
| 100 | 0.70 |
| 1000 | 0.22 |
Als we de volgende gegevens weten:
Dan kunnen we de CLT gebruiken om de vorm, het gemiddelde en de standaardafwijking (standaardfout) van de verdeling van de steekproefgemiddelden te vinden!
Onze lengtedata met \(\mu=175\) en \(\sigma=7\).
We nemen een steekproef van \(n=60\).
Dus, de verdeling van steekproefgemiddelden heeft:
Gegeven onze lengte-data met \(\mu=175\) en \(\sigma=7\):
We nemen nu een steekproef van \(n=100\). Wat is de kans dat de gemiddelde lengte van die steekproef 177cm of hoger is?
Informatie over de verdeling van de steekproefgemiddelden stapsgewijs:
Verkrijgen van de z-score:
Zoek het gebied van belang:
Vertalen van proporties naar kansen:
De kans dat de steekproef van \(n=100\) een gemiddelde van 177 of hoger heeft is 0.0021 (0.21%)
Er zijn twee soorten z-scores (of: twee berekeningen):
Opmerking: bij hypothesetests zijn wij vooral geïnteresseerd in vergelijkingen van steekproefgemiddelden!
Steekproeffout = populatieparameters - steekproefstatistiek:
Met andere woorden: met toenemende \(n\) verkleinen we de standaardfout \(SE\), en verkleinen we dus de steekproeffout!
PART 2: Hypothesetoetsen
We willen een hypothese over een populatie testen.
Omdat we nooit toegang kunnen hebben tot de hele populatie, moeten we werken met een steekproef.
Dat wil zeggen dat we geïnteresseerd zijn in het maken van een gevolgtrekking (we betreden nu het terrein van de inferentiële statistiek) over een populatie uit een steekproef
Extra lessen voor het inleiding statistiek tentamen.
Laten we dit stap voor stap doornemen.
Stel het examencijfer \(X\) van het “intro to stats” tentamen vormt deze verdeling \(X \sim N(6.9, 1.1)\).
Je gaat nu testen of extra lessen een effect hebben op het tentamencijfer.
Je formuleert dus een hypothese als volgt:
De nulhypothese:
De alternatieve hypothese:
Je test nu of extra lessen een effect hebben op het tenatemncijfer.
Je hebt toegang tot een steekproef van \(n=49\) studenten die extra lessen volgden.
NHST = null hypothesis significance testing
We weten dat de verdeling van de steekproefgemiddelden onder \(H_0\) met \(n=49\) een gemiddelde heeft van \(\mu=6.9\) en een standaardafwijking van \(\sigma_m = \frac{\sigma}{\sqrt{n}} = \frac{1.10}{7} = 0.16\)
Als het waargenomen steekproefgemiddelde (van onze \(n=49\) steekproef met extra lessen) zeer onwaarschijnlijk is onder de verwachte gegevens, zouden we de nul verwerpen.
Daarom heet dit nulhypothese significantietest.
Maar wat betekent zeer onwaarschijnlijk?
In NHST wordt zeer onwaarschijnlijk vertaald naar statistisch significant verschillend.
Ook wel: het alpha-niveau.
b.v. een alpha-niveau van \(\alpha = 0.01\) betekent dat we een waarde onwaarschijnlijk achten (of statistisch significant verschillend) als de waarschijnlijkheid dat we die waarnemen kleiner is dan \(\alpha\).
Onthoud: we kennen dit waarschijnlijkheids-verhaal en het idee van “onwaarschijnlijk”!
Het alpha-niveau komt precies overeen met regio’s in de verdeling.
Meer specifiek:
We kunnen de z-scores vinden die overeenkomen met staartproporties (en dus: waarschijnlijkheden).
Belangrijk:
Als we een hoger dan of lager dan \(H_1\) hebben, dan noemen we dit een directionele hypothese.
Voorbeeld:
\(\alpha = 0.05\) en een directionele \(H_1\) hebben een z-score nodig die een staartwaarschijnlijkheid heeft van 0.05.
Belangrijk:
Als we een anders dan \(H_1\) hebben, dan noemen we dit een non-directionele hypothese (d.w.z. we stellen alleen maar dat het anders is dan wat we onder de nul verwachten, maar hebben geen idee in welke richting).
Voorbeeld:
\(\alpha = 0.05\) en een non-directionele \(H_1\) hebben een z-score nodig die een staartwaarschijnlijkheid heeft van 0.025 (omdat hij zich over beide staarten verspreidt!!).
Directionele alternatieve hypotheses:
Niet-directionele alternatieve hypothesen:
Aangezien we een directionele \(H_1\) hebben die stelt \(H_1: \mu > 6.9\), laden we alle onwaarschijnlijkheden naar de rechterstaart.
We hebben de data van onze \(n=49\) steekproef geanalyseerd:
Het steekproefgemiddelde is \(M=7.46\)
We verkrijgen de z-score voor het steekproefgemiddelde (zie p. 210 in het boek).
\(z=\frac{M-\mu}{\sigma_M} = \frac{7.46-6.90}{0.16} = \frac{0.56}{0.16} = 3.5\)
Dus:
Het is een directionele \(H_1\), dus kijken we naar de staart voor \(z=3.5\):
| z | body | tail | M-to-z |
|---|---|---|---|
| 3.50 | .9998 | .0002 | .4998 |
| z | body | tail | M-to-z |
|---|---|---|---|
| 3.50 | .9998 | .0002 | .4998 |
Het observeren van een gemiddelde van \(M=7.46\) of hoger heeft een waarschijnlijkheid van 0.0002 (of 0.02%) onder de nulhypothese.
Dit is lager dan onze vooraf bepaalde drempelwaarde van \(\alpha = 0.01\):
Daarom verwerpen wij de nulhypothese.
Onze gegevens ondersteunen de alternatieve hypothese dat extra lessen het cijfer hebben verbeterd.
| z | body | tail | M-to-z |
|---|---|---|---|
| 3.50 | .9998 | .0002 | .4998 |
Een gemiddelde van \(M=7.46\) of hoger heeft een kans van 0.0002 (of 0.02%) onder de nulhypothese.
0.0002 is de p-waarde!
Geschreven als \(p=.0002\)
PART 3: Fouten bij inferenties
Onthoud:
Twee soorten fouten: Type 1 fouten en Type 2 fouten
Analogie: fout-positieven
We concluderen dat er een verschil is (=een effect), maar het is vals alarm (in werkelijkheid is er geen effect).
In hypothese-termen: we verwerpen de nul, maar hadden dat niet moeten doen.
Die fout willen we laag houden.
D.w.z. we willen heel zeker weten dat er een effect is.
Dit zit allemaal in het alpha-niveau: onder de nul ligt een proportie van precies \(\alpha\) in het kritieke gebied.
Voor \(\alpha=0.01\) ligt 1% van de waarden onder de nul in dat gebied.
Dus: in 1% van de gevallen zullen we ten onrechte concluderen dat er een effect is.
Analogie: gemiste effecten.
We concluderen dat er geen verschil is, maar in werkelijkheid is dat er wel (d.w.z. we missen het effect).
In hypothese-termen: we verwerpen de nulhypothese niet, hoewel we dat wel hadden moeten doen.
Deze foutterm wordt \(beta\) genoemd.
Meer hierover in de week over statistische power